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一 种 融合 服务 聚 类 与 协作 相似 度 的 服务 替换 方法 
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摘 要 : 当前 服务 替换 方法 多 关注 于 替换 服务 与 失效 服务 在 功能 和 质量 层面 的 匹配 ， 缺 乏 对 二 者 协作 关系 的 考量 。 
针对 上 述 问 题 ， 本 文 提 出 一 种 融合 服务 聚 类 与 协作 关系 的 服务 替换 方法 。 首 先 ， 利 用 服务 之 间 的 组 合 关系 构建 服务 
协作 图 谱 ， 基 于 Node2Vec 进行 序列 采样 并 生成 协作 向 量 ， 进 而 计算 服务 之 间 的 协作 相似 度 。 然 后 ， 通 过 引入 服务 
徐 缩 减 替 换 时 的 服务 查找 空间 ， 从 功能 和 质量 层面 快速 构建 候选 替换 服务 集合 。 最 后 ， 在 候选 替换 服务 集合 中 综合 
服务 质量 评分 和 协作 相似 度 实现 可 替换 服务 的 择优 推荐 。 实 验证 明 本 文 方法 可 以 有 效 提高 服务 替换 的 效率 与 合理 性 
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Service substitution method combining service clustering and collaboration similarity 


Tian Yuqing, Peng Fei, Wang Huadong!, Hu Qiang 
(College of information science & technology, Qingdao University of Science & Technology, Shandong Qingdao 266061, 
China) 


Abstract: The current service substitution methods mainly focus on the function and quality matching between the substitutive 
service and invalid one. These methods rarely considered service collaboration. To solve the above problem, this paper 
proposed a service substitution method integrating service clustering and collaboration. Firstly, this method constructed 
service collaboration map according to service composition relationships. It used Node2Vec to sample node sequences and 
generate collaboration vectors from the service collaboration map. This method computed service collaboration similarity 
based on these collaboration vectors. Then, this paper introduced service clustering to reduce the search space during service 
substitution. , It generated the candidate substitutive service set from the functional and quality levels. Finally, this method 
integrated the service quality score and collaboration similarity to achieve the recommendation of substitutive services. 
Experiments show that the proposed method can effectively improve the efficiency and rationality of service substitution. 
Key words: service clustering; collaboration similarity; service replacement; process co-occurrence 


0 al& 网 络 中 的 服务 数量 众多 ， 已 有 服务 替换 方法 在 进行 功能 相似 

il 服务 查找 时 面临 着 巨大 的 查找 空间 ， 蔡 换 服 务 的 查找 过 程 复 
随 着 云 计算 、 物 联网 和 5G 等 新 一 代 通 信 技 术 的 成 熟 ， 杂 且 耗 时 较 大 四。 此 外 ， 现 有 的 服务 查找 方法 缺乏 对 服务 协 
网 络 中 的 服务 数量 迅速 增加 ， 面 向 服务 架构 (SOA, Service- — 作 因 素 的 考虑 ， 在 获取 功能 层面 可 以 蔡 换 失效 服务 的 候选 服 
oriented Architecture) 的 软件 开发 和 部 署 模 式 得 以 广泛 应 用 山 ， 务 集合 后 ， 通 常 选取 具备 最 佳 Qos 的 服务 作为 蔡 换 服务 。 此 


务 
不 同类 型 的 服务 被 集成 到 各 类 业务 系统 。 为 了 便于 调用 ， 服 。 类 做 法 主要 关注 了 被 蔡 换 服务 位 置 处 的 服务 质量 局 部 最 优化 ， 
务 通 常 被 设计 为 较 小 功能 粒度 的 网 络 应 用 程序 中。 对 于 复杂 ”忽略 了 替换 服务 与 被 蔡 换 服务 所 处 业务 流程 环境 中 其 他 服务 
的 服务 请 求 ， 需 要 采取 服务 组 合 的 方式 将 一 组 功能 相关 的 服 。 之 间 的 协作 关系 ， 缺乏 从 全 局 度 评估 蔡 换 服务 与 业务 上 下 
务 构建 为 服务 流程 ， 通 过 流程 中 的 服务 协同 完成 响应 。 文 环境 中 其 他 服务 之 间 是 否 具 备 较 高 的 协作 兼容 性 外。 


不 论 是 互联 网 、 物 联网 还 是 各 类 自 组 网 络 中 的 服务 ， 均 鉴于 当前 服务 蔡 换 方法 普遍 面临 着 服务 查找 空间 大 、 查 
处 于 动态 多 变 的 网 络 环 境 中 ， 可 能 会 造成 某 些 服务 工作 状态 。 找 效 率 不 高 和 缺乏 对 蔡 换 服务 与 流程 业务 上 下 文 协作 适应 度 
的 中 断 馈 。 各 类 服务 平台 为 了 提供 质量 更 好 、 更 具备 竞争 力 ”的 考量 ， 本 文 提 出 一 种 融合 服务 聚 类 与 协作 相似 度 的 服务 蔡 
的 服务 ， 采取 大 量 激励 机 制 促使 平台 中 的 服务 不 断 进行 功能 — 换 方 法 ， 文 中 主要 工作 和 贡献 如 下 : 
演进 和 服务 版 本 的 更 新 外 。 因 此 ， 不 论 是 服务 所 处 的 复杂 网 1) 构建 了 服务 协作 图 谱 ， 提 出 一 种 基于 Node2Vec 的 服 
络 客观 环境 还 是 主观 层面 的 功能 演化 需要 ， 均 可 能 会 造成 一 务 协 作 相似 度 计算 方法 ， 通 过 引入 蔡 换 服务 与 失效 服务 之 间 
些 服 务 失 效 , 己 有 的 业务 系统 面临 着 服务 蔡 换 与 迁移 的 需求 ， 的 协作 相似 度 进 一 步 提升 了 服务 蔡 换 的 合理 性 。 
如 何 高 效 、 准 确 地 实现 服务 蔡 换 是 采用 SOA 架构 进行 业务 2) 建立 了 面向 服务 艇 的 服务 请 求 响应 模式 , 通过 引入 服 
系统 开发 和 部 署 所 面临 的 一 个 重要 问题 。 务 镑 ， 缩 减 服务 查找 空间 ， 提 高 了 服务 替换 时 的 候选 服务 集 
现 有 的 服务 替换 研究 工作 ， 主 要 从 功能 与 质量 两 个 层 合 的 查找 效率 。 
考虑 服务 的 匹配 度 ， 相 关 研 究 成 果 也 集中 在 如 何 进行 服务 妃 3) 开 展 了 仿真 实验 ， 从 蔡 换 服务 的 查找 时 间 和 蔡 换 服务 
能 相似 度 的 计算 以 及 质量 (QoS, Quality of Service) 择 优 。 与 失效 服务 所 处 业务 流程 中 其 他 服务 的 共 现 率 两 个 角度 验证 
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了 本 文 方法 的 有 效 性 。 性 ， 本 文 将 服务 聚 类 、GSDMM 主题 模型 和 协作 相似 度 引入 
Pe 到 服务 蔡 换 ,通过 服务 聚 类 缩减 蔡 换 过 程 中 的 服务 查找 空间 
基于 GSDMM 为 服务 描述 生成 主题 向 量 , 改进 普 换 过 程 中 的 
服务 营 换 是 服务 计算 领域 中 的 一 个 重要 研究 问题 ， 研 究 。 服务 相似 度 计算 精度 ， 从 而 提高 葵 换 服务 的 匹配 精确 度 。 通 
者 在 进行 服务 葵 换 时 首先 考虑 葵 换 服务 在 功能 层面 与 失效 服 。 过 建 模 服务 之 间 的 流程 转移 依赖 关系 ， 构 建 一 种 基于 
务 是 否 兼容 ， 然 后 融入 服务 的 质量 评价 、 查 找 效 率 、 接 口 数 。 “Node2Vec 的 服务 协作 相似 度 计算 方法 , 综合 考虑 服务 质量 
据 的 一 致 性 、 组 合 偏好 等 因素 ， 提 出 了 -一 系列 的 替换 方法 。 协作 相似 度 ， 提 升 蔡 换 服务 的 推荐 合理 性 。 
例如 ，Liang 等 使 用 服务 描述 各 种 标记 中 的 术语 共 现 情况 对 a 
服务 进行 分 类 ， 建 立 服务 操作 接口 的 兼容 性 和 车 换 的 方法 ， 2 ， 服务 协作 相似 度 
服务 营 换 精 确 度 达 到 了 85%， 但 该 方法 在 识别 普 代 服务 的 语 社交 网 络 理论 研究 显示 ， 多 名 参与 者 协同 完成 一 项 任务 
义 异 构 性 层面 仍 面临 着 很 大 挑战 四 。Zhang 通过 挖掘 Web 服 。 时 ， 参 与 者 更 倾向 与 自己 熟悉 或 曾经 有 过 合作 经 历 的 人 一 起 
务 执行 上 下 文 特征 规则 , 定性 地 表示 Web 服务 在 不 同 执行 上 分 工 合作 P23。 在 服务 组 合 应 用 场景 中 ， 用 户 也 倾向 选择 有 过 
下 文 条 件 下 的 不 同性 能 ， 根 据 当前 执行 上 下 文 条 件 ， 采 用 基 。。 历史 组 合 关系 的 服务 构建 新 的 业务 流程 ， 这 些 服务 在 接口 兼 
于 知识 发 现 的 方法 选择 最 佳 候选 蔡 代 服务 加。Gao 提出 了 一 容 、 业 务 部 署 等 层面 都 具有 较 高 的 可 靠 性 。 因 此 ， 在 一 组 候 
种 数据 一 致 性 检查 方法 ， 用 于 动态 将 换 服务 ， 利 用 数据 葵 换 。“ 选 亚 换 服务 中 ， 选 择 与 失效 服务 具有 相似 协作 伙伴 的 服务 将 
模式 来 规范 不 同类 型 的 葵 换行 为 ， 通 过 实例 分 析 和 实验 验证 ”增加 蔡 换 的 合理 性 。 
了 所 提 方 法 在 动态 蔡 换 数据 一 致 性 方面 的 有 效 性 四。 为 了 度量 服务 之 间 是 否 具备 类 似 的 服务 协作 关系 ， 提 出 
Santhanam 在 进行 服务 蔡 换 时 ， 使 用 偏好 网 络 表 示 和 推 服务 协作 相似 度 的 概念 ， 利 用 协作 相似 度 的 大 小 衡量 两 个 服 
昌 服 务 需求 对 非 功能 属性 的 偏好 ， 依 据 非 功能 属性 进行 蔡 换 “。 务 在 相似 组 合 服务 流程 上 下 文 环 境 中 出 现 的 概率 大 小 。 服 务 
服务 选择 Hol。Sara 将 Web 服务 视 为 一 组 操作 ， 服 务 蔡 换 转换 “协作 相似 度 的 大 小 取决 于 以 下 两 个 要 素 ， 服 务 共 现 率 和 流程 
为 服务 操作 之 间 的 替换 ， 将 已 有 服务 的 服务 操作 构建 为 一 个 ”距离 。 两 个 服务 在 相似 的 服务 流程 中 出 现 的 次 数 越 多 ， 二 者 
网 络 ， 定 义 了 4 种 服务 操作 接口 匹配 度 ， 在 需要 进行 服务 蔡 ”协作 相似 度 越 大 ， 两 个 服务 与 同一 个 服务 的 流程 距离 越 近 ， 
换 时 ,从 服务 操作 形成 的 网 络 中 进行 查找 , 相 比 直 接 进行 Web 二 者 协作 相似 度 越 大 Pal。 
服务 的 蔡 换 显著 提高 了 蔡 换 效率 HI。Du 等 提出 了 一 种 基于 为 了 计算 两 个 服务 之 间 的 协作 相似 度 ， 本 文 构建 服务 协 
服务 修 网 的 服务 蔡 换 方法 ， 通 过 引入 服务 候 提 高 查找 效率 ，“” 作 图 谱 。 服 务 协作 图 谱 为 一 无 向 图 ， 图 谱 的 节点 表示 服务 ， 
昌文 中 的 服务 修 要 求 参数 接口 一 致 ， 因 此 该 方法 在 进行 替换 边 表 示 两 个 节点 服务 之 间 具 备 协作 关系 。 在 各 类 云 平台 上 积 
服务 查找 时 ， 服 务 查找 空间 缩减 空间 有 限 ， 服 务 蔡 换 的 柔性 累 了 大 量 的 服务 流程 模型 ， 通 过 遍历 服务 流程 模型 ， 将 流程 
有 待 进一步 提高 ta]。Hu 等 提出 了 一 种 基于 流程 协作 关系 的 。 “模型 中 的 服务 抽象 为 服务 协作 图 中 的 节点 ， 服 务 转移 依赖 关 


服务 蔡 换 方法 ， 过 引入 流程 协作 提升 了 替换 合理 性 ， 但 该 方 ” 系 映射 为 协作 图 谱 的 边 即 可 完成 服务 协作 图 谱 的 构建 。 

法 存在 流程 协作 依赖 关系 采集 不 完备 问题 ， 所 计算 的 服务 协 定义 1 协作 依赖 

作 强 度 精 确 度 有 待 进一步 提高 名。 在 一 个 服务 组 合流 程 模型 sp H, 若 服务 si 与 服务 sj 存在 业 
服务 蔡 换 是 以 失效 服务 的 功能 作为 服务 需求 而 进行 的 服务 逻 辑 转 移 ， 则 称 服务 si 与 s; 互 为 协作 依赖 关系 ， 记 为 si->si。 

务 再 发 现 。 因 此 ， 服 务 发 现 领域 的 一 些 成 果 可 为 服务 蔡 换 提 定义 2 服务 协作 网 络 

供 借鉴 。 服 务 发 现 的 效率 与 精确 度 是 评价 和 改进 服务 发 现 方 服务 协作 网 络 定义 为 一 个 无 向 加 权 图 SCG=(V, E) 

法 的 两 个 关键 指标 。 研 究 者 通常 采用 聚 类 0 2 、 二 分 图 5 161. a) V-tvi, v2, V3,…,Vn} 为 服务 节点 集合 ， 每 个 节点 vi 表示 

索引 D7 等 方法 改进 服务 发 现时 的 检索 机 制 ， 提 升 服务 查找 速 。” 一 个 服务 ; 

度 ， 其 中 聚 类 技术 使 用 最 为 广泛 ， 它 可 以 有 效 缩减 服务 查找 b) E-(e-(vi, w)|1i, j<n} 为 协作 边 集 合 ， 其 中 e=(wi, vi) 

空间 ， 提 高 查找 效率 。 服 务 发 现 的 精确 度 主 要 取决 于 需求 与 ” 示 服 务 节点 vi 与 芭 所 对 应 的 服务 si 和 sj 满足 sins: 

服务 之 间 的 相似 度 判定 。 在 早期 服务 发 现 研 究 中 ， 通 常 是 从 1 是 利用 ProgrammableWeb 网 站 中 注册 的 Mashup 服 

服务 描述 文档 (如 WSDL 文档 ) 中 提取 若干 代表 服务 特征 的 关 务 所 构建 的 服务 协作 图 谱 片 段 .-Mashup 服务 是 一 种 组 合 服务 ， 

键 词 ， 然 后 通过 计算 这 些 关 键 词 的 词 频 W% 或 语义 相似 度 * ”1 。 一 个 Mashup 服务 通常 包含 2 到 6 个 左右 的 Web 服务 ， 这 些 

来 实现 需求 与 服务 的 相似 度 判 定 。 Web 服务 协同 完成 复杂 的 业务 功能 。 在 构建 了 服务 协作 图 谱 
近年 来 , 采用 自然 语言 文本 作为 服务 描述 的 服务 越 来 越 多 ， 后 ， 采 用 Node2Vec 对 图 谱 中 的 节点 进行 序列 采样 ， 并 根据 

基于 主题 模型 或 深度 学 习 方 法 从 服务 描述 文本 中 提取 服务 主题 ”采集 到 的 协作 序列 为 每 个 节点 所 代表 的 服务 生成 向 量 ， 将 该 


特征 ， 并 依据 主题 特征 向 量 进行 需求 和 服务 之 间 的 相似 度 判定 。 ”向 量 称 为 服务 协作 向 量 。 
成 为 主流 方法 。 例 如 ，Nabli 等 将 TF-IDF 与 LDA 模型 相 结合 ， aott 7. 
提出 一 种 适用 于 云 服务 相似 度 计算 的 主题 向 量 生成 模型 ， 提 高 = : 
TRA IRUDGSERS PHRI, RERA GSDMM H 
型 生成 服务 表征 向 量 ， 并 引入 概率 修正 因子 ， 提 高 了 服务 发 现 
和 聚 类 过 程 中 的 相似 度 计算 精度 ， 并 实验 证 明了 在 生成 服务 表 


征 向 量 时 , GSDMM 模型 的 主题 表达 能 力 显著 高 于 LDA、BTM 


bum 


等 常用 主题 模型 户 ]。Lizarralde 使 用 变 分 自动 编码 器 从 服务 描述 — M 7 一 
中 学 习 特征 ， 将 编码 表示 限制 为 对 潜在 变量 建 模 ， 该 方法 优 于 Dins a 
LDA 和 LSA 等 传统 主题 模型 ， 但 服务 特征 学 习 和 模型 训练 复 图 1 服务 协作 图 谱 示例 片段 
杂 度 显著 高 于 常用 主题 模型 P41。 Fig. 1 A sample fragment of service collaboration graph 

上 述 服务 发 现 领域 的 重要 研究 成 果 为 服务 蔡 换 的 研究 提 算法 1 用 于 生成 服务 协作 相似 度 和 矩阵， 在 该 矩阵 中 可 以 获 
供 了 重要 的 借鉴 。 目 前 尚未 有 研究 成 果 将 主题 模型 引入 到 服 ”得 任意 两 个 服务 之 间 的 协作 相似 度 。 算 法 1)-6) 行 用 于 构建 协作 
务 蔡 换 的 功能 匹配 中 ， 为 进一步 提高 服务 替换 的 效率 和 合理 图 谱 ， 首 先 初始 化 一 个 空 协作 图 谱 SCG, 然后 遍历 流程 库 SP 中 


录用 定稿 


的 服务 流程 , 将 存在 协作 依赖 关 
(SNINA SCG， 并 在 两 个 节点 之 间 构 建 一 条 边 <v(s), v(s')>。 

算法 7)-20) 行 采用 Node2Vec 生成 服务 协作 向 量 P9。 算法 在 
第 7) 行 初始 化 空 
算法 第 8) 行 通过 循环 产生 + 次 随机 游 走 。 对 于 服务 协作 图 谱 
的 每 个 服务 节点 u， 算 法 第 9) 和 10) 行 为 其 
walk[u]。 算 法 
存放 于 walk 中 , 主要 通过 等 概率 随机 选择 邻居 节点 和 负 采 样 的 
方式 生成 节点 序列 ， 并 
SGD 方法 对 walks 进行 训练 ， 


Scv[i]。 


田 雨 晴 ， 等 : 


系 的 服务 s 与 s' 作 为 节点 v(s) 和 


RG walks 用 来 存放 随机 游 走 得 到 的 节点 序列 。 


初始 一 个 序列 数组 
度 为 1 的 节点 序列 


第 11) 至 17) 行 每 次 游 走 生 成 长 


将 walk 添加 到 walks 中 。 第 19 行 ) 采 用 
为 每 个 节点 生成 服务 协作 向 量 
向 量 的 余弦 夹 角 值 来 度量 任意 两 个 


四 | 
iun 


算法 21)-23) 行 , X) 


服务 之 间 的 协作 相似 度 , 并 构建 协作 相似 度 和 矩阵 CSM, 算法 24) 


行 返 回 


算法 1 


构建 的 协作 相似 度 矩 阵 CSM。 


Collaboration SimCalculate 


Input: the set of service process SP; 


Output: 


collaboration similarity matrix CSM 


1) Initialize a service collaboration graph SCG; 


2) for each service process sp in SP 


3) 
4) 
and 
5) 


for each service sesp 
if (3s'esp, s.t. s— s'v s'—s) add v(s), v(s') 
«v(s), v(s')» into SCG. 


endfor 


6) endfor 


7) Initialize walks to Empty 
8) for iter - 1 to r do 


axi 


提高 服务 查找 效率 。 


tenat request 


services composition 


process model 


Ee 


Virtual resource layer 


cloud service 


Service 
process 


E - Physical resource layer- 
service / service flow 


图 2 面向 服务 艇 的 服务 请 求 响应 模式 
Fig.2 Service request and response schema oriented service clusters 


3.2 ”服务 替换 算法 


集合 的 生成 ， 该 阶段 从 功能 
务 集合 ; 第 二 个 阶段 进行 服务 质量 和 协作 相 


以 度 的 综合 
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将 相似 的 服务 划分 为 一 个 徐 ， 因 此 大 幅度 缩减 了 服务 查找 空 


OO 第 一 个 阶段 为 候选 服务 
看 获取 可 以 替换 失效 服务 的 服 
择优 。 


为 了 便于 描述 簇 模式 下 的 服务 人 蔡 换 过 程 ， 首 先 给 出 服务 及 服 
务 艇 的 形式 化 定义 。 

定义 3 服务 

服务 定义 为 6 元 组 s=(14, D, I, O, Q, Drs Id 为 服务 


的 标识 , D 为 服务 的 功能 描述 文本 , T 和 O 
出 参数 集合 ，@ 是 质量 集合 ，Z 为 服务 的 地 址 标识 。 
例如 , ProgrammableWeb 上 注册 的 Google 地 


分 别 是 输入 和 输 


图 服务 中 的 


» 


9) for all nodes u e V do GeocodingApi 服务 , 其 对 应 的 服务 描述 D 为 "Geocoding is the 
10) Initialize walk to [u] process of converting addresses (like "1600 Amphitheatre 
11) for walk iter = 1 to L do Parkway, Mountain View, CA") into geographic coordinates (like 
12) curr = walh[-1] latitude 37.423021 and longitude -122.083739), which you can 
13) Vcurr = GetNeighbors(curr, SCG) use to place markers or position the map. Reverse geocoding is 
14) t= ALiassample(Vcue, m) the process of converting geographic coordinates into a human- 
15) Append t to walk readable address.”。 该 服务 的 输入 参数 集合 三 {(string address) 
16) endfor 输出 参数 集合 O={(float latitude), (float longitude)? 。 
17) Append walk to walks 服务 质量 集合 O= (qi. qi ={N,C,V,U}， 其 中 为 服务 质量 
18) endfor 参数 名 称 , C 是 比较 运算 符 ， 严 是 参数 的 值 ，C 为 其 单位 。 如 果 
19)  scv[vi]- StochasticGradientDescent(k, d, walks) q= (ResponseTime,<,0.5,ms)， 表 示 服 务 响应 时 间 低 于 0.5 毫秒 。 
20) endfor 定义 4 REIR 
21) for vvi, vj in SCG 服务 簇 定义 为 7 元 组 sc=(Cia V; L, O, Sw Q), HEF Cn 是 服 
22)  CSM[vi][v;]- Cosine Vec(scv[vi], scv[vi]) 务 复 的 标识 , VIRZHA, 7 和 O 分 别 为 输入 和 输出 
23) endfor 参数 集合 ,Sw 是 服务 簇 所 包含 的 服务 集合 , 0. 为 质量 参数 集合 。 
24) return CSM. 服务 簇 由 若干 服务 聚 类 得 到 ， 不 设置 功能 描述 文本 ， 在 
定义 中 采用 功能 向 量 V 来 表示 服务 簇 的 功能 。 服 务 簇 的 功能 
3 — 面向 服务 族 融 合流 程 协 作 相似 度 的 服务 敬 换 向 量 广 为 簇 中 所 有 服务 的 功能 向 量 均 值 。 服 务 簇 的 输入 和 输 
3.1 面向 服 繁 的 服务 请 求 响应 模式 出 参数 是 其 所 包含 的 所 有 服务 的 输入 输出 参数 集合 的 并 集 。 
传统 的 SOA 架构 中 ， 服 务 请 求 由 发 布 在 网 络 中 的 服务 。 服务 簇 的 质量 参数 值 应 该 能 涵盖 所 有 服务 的 质量 参数 取 值 ， 
或 一 组 服务 的 组 合流 程 实现 响应 。 服 务 查找 过 程 中 面临 着 海 。 采用 区 间 法 qi={N,C,[Vmin, Vmax],U} 表 示 服 务 簇 的 质量 参数 
量 服 务 的 比 对 ， 服 务 查找 效率 不 高 。 服 务 蔡 换 时 需要 重新 为 ” 值 。 若 服务 艇 的 Oc ={(ResponseTime, <, [0.1,0.5], ms), 
己 有 响应 需求 的 服务 寻找 一 个 蔡 代 服务 ， 在 这 种 模式 下 ， 可 (ResponseRat, >, [98,100], %)}， 则 表示 该 服务 簇 中 的 服务 响 
替代 服务 的 查找 代价 巨大 。 应 时 间 最 低 小 于 0.1ms， 最 大 小 于 0.5ms， 而 服务 响应 率 最 低 
为 了 提高 服务 蔡 换 时 的 服务 查找 效率 ， 在 SOA 架构 中 ”的 服务 大 于 98%， 最 高 的 服务 为 100%。 
引入 服务 艇 ,建立 了 如 图 2 所 示 的 服务 响应 模式 。 在 传统 的 本 文采 用 适合 短文 本 主题 提取 的 GSDMM 模型 为 服务 
SOA 请 求 响应 模式 中 ， 增 加 一 个 虚拟 资源 层 ， 在 虚拟 资源 层 上 述 文 本 生成 功能 向 量 。 在 前 期 工作 中 验证 了 GSDMM 为 
中 构建 服务 簇 。 不 同 于 传统 服务 请 求 响应 模式 ， 位 于 业务 模 。 Web 服务 描述 生成 的 功能 向 量 的 质量 显著 高 于 其 他 主题 模型 
型 层 中 的 服务 请 求 不 再 由 原子 服务 响应 ， 而 是 首先 由 虚拟 资 l, GSDMM 基于 狄 利克 雷 混合 模型 (DMM) 生 成 文档 ,然后 
源 层 中 的 服务 簇 响应， 然后 从 服务 簇 中 绑 定 最 优 响应 服务 ， 使 用 吉 布 斯 采样 (Gibbs Sampling) 算 法 近似 求解 模型 。DMM 
进而 绑 定 物理 资源 层 中 原子 服务 或 组 合 服务 流程 。 如 图 3 所 示 ， 吉 布 斯 采样 过 程 为 使 用 一 个 单词 在 所 有 主题 上 
引入 虚拟 资源 层 和 服务 簇 ， 可 以 提高 服务 请 求 的 响应 粒 不断 地 采样 ， 最 终 得 到 这 个 单词 的 主题 分 布 矩 阵 ， 从 而 得 到 
度 ， 在 服务 发 现时 采用 “服务 簇 -服务 ”二 级 查找 模式 ， 由 于 ”文档 -主题 矩阵 @=dxz 以 及 单词 -主题 矩阵 =wxz 。 吉 布 斯 
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We, X: 一 种 融合 服务 聚 类 与 


盟 于 某 个 主题 的 概率 计算 公式 如 下 式 (1): 


(1) 


， 尺 表示 初始 主题 个 数 , D 表示 语料库 中 描述 总 数 ， mz 


主题 Z 下 的 文档 数 ，nz 表示 主题 Z 下 的 单词 数 


题 Z 下 的 单词 w 出 现 的 次 数 ，d 表示 去 除 当 前 文档 。 


定义 5 子 集 参 数 


y DZ- Ed 


Pa 和 Pb 是 两 组 参数 ,Pa 称 为 Pb 的 子 集 参 数 当 且 仅 当 : 
a) Num(Pa)<Num(Pb)，Num(p) 表 示 参 数 p 的 个 数 ; 
b) vmiePa, 3njePb, 满 足 micnj H. Type(mi) = Type(nj); 


Type(m) 表 示 参 m 的 类 型 ， 符 号 x 表示 语义 等 价 ，s= 表 示 
类 型 兼容 ， 如 果 Pa 是 Pb 的 子 集 参数 ， 记 为 PacPb; 


在 进行 服务 蔡 换 时 ， 首 先 需 要 从 功能 和 接口 层面 
选 蔡 换 服务 ， 然 后 再 从 服务 质量 和 协作 相似 度 角 
换 服 务 。 本 文采 用 服务 的 描述 文本 的 功能 相似 度 
的 功能 相似 度 。 对 于 服务 si 和 ?>，Yv(s) 表 示 基 于 


寻找 合适 
度 计算 最 
作为 两 个 
功能 描述 


述 
si.D 和 GSDMM 模型 为 其 生成 的 功能 向 量 (=1,2)， 则 服务 


能 相似 度 为 两 个 向 量 的 余弦 夹 角 值 ， 参 见 式 (2): 


v(s )ev(s:) 
Iv | *|vG) 


FucSim(si, s2)— 


服务 ， 每 个 服务 具有 1n 个 质量 参数 ，[gi, qiz... 
参 


Q) 


在 对 服务 质量 进行 量化 时 ， 假 设 Sm ot, s2,.…, sm} 为 一 组 


,qin] 是 服 


的 质量 参数 值 ， 则 采用 式 (3) 对 si 的 服务 质量 进行 加 权 评 


k, Soj 用 于 表示 各 个 质量 参数 的 权重 。 
Oscore(s;) = Ya *w;, Èw, =1 
j=l j=l 


qr gr 
l if qr™ —grn =0; 


— di "m qv -qm +0; 
dij = 
J 
qv - qn 


di di —. df qp" -qp +0; 
qs = 
l, if qy™ -q}™ =0; 


6) 


(4) 


(5) 


质量 


IH 


度 的 


Se 的 月 
CSR. 


， 此 类 服务 的 数值 越 大 表示 服务 的 质量 越 高 。 


E 


在 对 服务 质量 进行 量化 时 ， 式 (4) 用 于 负 向 质量 参数 的 量 
例如 响应 时 间 、 价 格 ， 此 类 服务 的 数值 越 小 表示 服务 的 
越 高 。 式 (5) 用 于 正 向 质量 参数 的 量化 ， 例 如 稳定 性 、 香 


算法 2 为 本 文 所 构建 的 服务 艇 模式 下 融合 服务 协作 相似 


利 


服务 
Aes 
用 过 


j 子 集 参数 的 定义 规则 , 将 接口 参数 可 与 失效 服务 se 接口 


匹配 的 服务 加 入 到 候选 服务 集合 cs_r。 
算法 10)-12) 行 用 于 计算 候选 蔡 换 服务 集合 cs 


的 推荐 评分 。 服 务 s 的 推荐 评分 由 服务 的 质量 评分 和 服 
闻 的 协作 相似 度 加 权 得 到 , 在 算法 的 使 


与 失效 服务 se 之 
程 中 ， 依 据 服 务 质量 和 协作 相似 度 对 蔡 换 服务 ] 


服务 蔡 换 算法 。 算 法 第 1) 行 首先 初始 化 两 个 空 集合 CSR 
和 cs_7， 分 别 用 于 存储 候选 服务 徐 和 候选 蔡 换 服务 集合 。 算 
法 2)-4) 行 利用 功能 相似 度 FucSim 筛选 存在 可 替换 失效 服务 
REIR, 将 与 失效 服务 se 功能 等 价 的 服务 簇 加 入 到 集合 
算法 5) 至 9) 行 ,遍历 CSR 中 所 有 服务 簇 所 包含 的 服务 ， 


要 度 
服务 


rst, 


In 
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不 同 ， 设 置 合理 的 a 和 B 值 即 可 。 算 法 第 13) 行 通过 计算 
的 推荐 评分 , 选择 cs_r 中 评分 最 高 的 服务 作为 蔡 换 服务 
算法 第 14) 行 最 终 返 回 推荐 服务 rst。 

算法 2 Service Subtitution Collaboartion 


put: the cloud service cluster pool CSCP; the invalid 


cloud service se; 


Output: the recommended substitution service set rst; 


1) 
2) 
3) 
4) 
5) 
6) 
7) 
8) 
9) 
10 
11 
12 
13 
14 


4 


CSR-Q, cs r =Ø; 
for each sceCSCP 
if (Fucsim(sc, se)»86) CSR = CSR Ut{sc}; 
endfor 
for each sceCSR 
for each sesc.Sw 
if (s.I«se.I^se.O«-s.0) cs r-cs nr Ut{s}; 
endfor 
endfor 
) for each service s in cs r 
) RecomGrade(s)-a*Qscore(s)*f*CSM(s, se); 
) endfor 
) rst-(s| max(RecomGrade(s))A^secs r); 


) return(rst). 
仿真 实验 
本 节 通 过 实验 验证 所 提出 服务 蔡 换 方法 的 有 效 性 。 实 验 分 


为 两 个 部 分 ， 一 部 分 用 于 验证 本 文 方法 是 否 提高 了 服务 替换 时 
的 查找 效率 ， 另 外 一 部 分 用 于 验证 所 推荐 的 替换 服务 是 否 较 其 他 
方法 更 为 合理 。 实 验 采用 的 计算 机 软 硬 件 配置 为 :CPU i5-10210U, 


内 存 
4.1 


8G，Windows 10 操作 系统 ， 采 用 python 编写 验证 程序 。 
实验 数据 集 
实验 中 构建 了 两 个 数据 集 : 数据 集 1 为 真实 数据 集 ， 从 


ProgrammableWeb Jii HJER Mashup 服务 ， 经 过 数据 清洗 


保留 


5327 条 有 效 Mashup 服务 ， 共 计 包 含 786 个 WebAPI HR 


务 , 根据 服务 标签 这 些 服 务 被 聚 类 为 34 个 服务 徐 。 为 了 提高 


服务 
中 的 
词 的 


站 中 


随机 


蔡 换 的 可 行 性 ， 便 于 服务 接口 匹配 ， 手 工 对 786 个 服务 
输入 输出 参数 进行 了 修正 ， 实 现 同 义 数 据 类 型 和 参数 名 
统一 表示 。 
数据 集 2 为 仿真 数据 集 ， 该 数据 从 ProgrammableWeb 网 
疏 取 的 156 个 类 别 、 共 计 21425 个 有 效 Web API 服 务 中 ， 

抽取 了 80 个 类 别 ， 每 个 类 别 随 机 抽取 1-10 条 服务 ， 共 


计 400 条 Web API 服务 。 将 此 400 个 服务 称 为 原始 服务 ， 按 


如 下 


流程 进行 处 理 , 生成 3600 个 新 服务 ,共计 4000 个 服务 。 
1) 服 务 描述 的 生成 
对 于 每 一 条 原始 Web API 服务 对 应 的 服务 描述 ， 随 机 生 


成 1-20 条 服务 描述 , 每 条 新 服务 描述 由 原 服务 描述 文本 采取 


按照 


的 2 
原始 


个 参 


比例 从 10-70% 随 机 蔡 换 单词 的 方式 生成 。 
2) 服 务 接口 参数 的 生成 

对 于 每 一 条 原始 Web API 服务 的 参数 ， 获 取 该 参数 名 称 
个 同义词 ， 与 原 参 数 一 起 作为 候选 参数 名 称 集合 ， 在 | 
服务 生成 新 服务 时 ， 随 机 在 候选 参数 名 称 集合 中 选择 一 
数 名 称 作 为 新 服务 的 参数 。 

3) 服 务 质量 的 设置 
由 于 在 ProgrammableWeb 上 无 法 获取 到 Web API 服务 的 


7 中 每 个 


ETE E 


5A 


参数 信息 ， 本 实验 中 选取 服务 响应 时 间 rt， 可 靠 性 av 和 


H 


h 


费用 
务 在 
随机 


cs 三 个 质量 参数 , 为 数据 集 1 和 数据 集 2 中 的 每 一 条 服 
述 取 值 区 间 内 {rt[0.01, 0.1]，av[97%, 100%], cs[0, 20]} 
生成 服务 质量 的 参数 值 。 

4) 协 作 关 系 的 生成 

随机 生成 40000 条 包含 8 个 服务 节点 的 服务 流程 ， 将 


202205.00062v1 


chinaXiv 


录用 定稿 Hu, 


A 


T: 


ChinaXiv 合 作 期 刊 


一 种 融合 服务 聚 类 与 协作 相似 度 的 服务 替换 方法 


数据 1 与 数据 2 的 耗 时 占 比 看 ， 随 着 服务 数量 的 增加 ， 蔡 换 


4000 条 服务 按照 类 别 划 分 为 8 类 ,每 类 大 约 500 条 服务 ， 对 


应 于 服务 流程 的 一 个 节点 
的 一 类 服务 中 抽取 1 条 服务 形成 一 
条 服务 组 成 一 条 服务 流程 。 
4.2 ”服务 查找 与 替换 效率 


标 。 


服务 蔡 换 的 本 质 是 依据 失效 服务 的 功能 
代 服 务 ， 因 此 ， 服 务 的 查找 和 蔡 换 效率 是 一 
选取 了 近年 来 发 表 的 四 种 服务 查找 (文献 [22]、 文 献 [27]、 


^ 


重要 的 验证 


。 在 生成 服务 流程 时 ， 随 机 从 对 应 
个 节点 ， 从 8 类 中 


取 8 


重新 查找 一 个 蔡 


指 


文献 [281] 和 文献 [29]) 和 蔡 换 方法 (文献 [6]、 文 献 [11]、 文 献 [12] 


和 文献 [30]) 与 本 文 方法 (SM_CC) 进 行 对 


比 验 i 证 。 


对 于 数据 集 1, 本 文采 取 数 据 中 服务 的 类 别 数 34 
分 别 将 其 聚 类 为 40，80，120，160 
和 200, 不 同类 别 下 服务 查找 耗 时 折线 图 参见 图 


类 数量 。 对 于 数据 集 2， 


EKK 


4， 从 图 中 可 


以 看 出 ， 服 务 查找 效率 和 服务 艇 的 大 小 有 关 ， 随 着 服务 艇 粒 


度 的 变 小 ， 


查找 耗 时 呈现 先 降低 后 增加 的 趋势 ， 依 据 折线 趋 


势 和 耗 时 数据 ， 本 文选 取 服 务 查 找 速度 最 快 的 类 别 数目 120 


作为 聚 类 的 数量 。 


021 
018 
015 


| 
" 
- n 
[ 
| 
| 


40 80 120 160 200 
聚 类 数量 


图 4 数据 集 2 的 聚 类 数量 与 查找 时 间 


Fig.4 Discovery time for different service cluster number in dataset 2 


耗 时 对 比 图 。 从 图 5 和 图 6 中 的 柱 


方法 的 查找 效率 高 于 其 
较 大 时 ， 服 务 簇 的 引入 缩减 查找 空 
DEDE: 


方法 的 平均 耗 时 的 占 比 为 1:1.79， 在 数据 集 2 中 ， 
5 比 变 为 1:1.96, 耗 时 平均 降低 8.67%。 


数量 的 增加 , 上述 耗 时 


图 5 和 图 6 分 别 为 不 同方 法 在 两 个 数据 集中 查找 服务 的 
状 图 对 比 可 以 看 出 ， 本 文 


也 四 种 方法 ， 在 数据 集 
间 更 为 明显 ， 服 务 查找 耗 
他 方法 更 低 ， 在 数据 1 中 ， 本 文 的 方法 与 其 他 四 个 


的 服务 数量 


随 着 服务 


此 外 ,通过 引入 主题 模型 对 服务 功能 
在 服务 查找 时 效率 要 高 于 其 他 方法 。 


02 
时 
3015 
间 
01 
0.05 
0 


SM_CC 文献 2 文献 27] 文 献 [28] 文 献 [29; 


图 5 不 同方 法 在 数据 集 1 中 查找 


Fig. 5 


02 
时 
-0.15 
间 
01 
005 i 
0 


SM. CC aei d "— 文献 [29 


图 6 E o 2 de 


M f] 


Hf f] 


向 量 进行 预 训练 的 方法 ， 


Discovery time for different methods in dataset 1 


Fig.6 Discovery time for different methods in dataset 2 


替换 耗 时 对 比 图 
耗 时 低 于 其 


图 7 和 图 8 分 别 为 不 同 服务 替换 方法 在 两 个 数据 集中 的 
。 从 图 中 数据 可 知 ,本 文 方法 在 服务 替换 时 ， 
他 服务 蔡 换 方法 。 在 五 种 方法 的 对 比 中 ， 服 务 蔡 


换 时 引入 服务 复 的 方法 ， 在 替换 时 耗 时 低 于 未 引入 服务 艇 的 


方法 。 在 所 有 替换 方法 中 ，Sara 所 提 
的 接口 比 对 操作 而 耗 时 最 高 。 在 数据 1 中 ， 


出 的 方法 因 构 建 了 复杂 
本 文 方法 与 其 他 
四 种 蔡 换 方法 平均 耗 时 比 为 1:1.75， 上 述 耗 时 占 比 在 数据 集 


2 中 为 1:1.93, 本 文 方法 在 替换 效率 上 显著 优 于 


其 他 方法 , 从 


耗 时 
簇 后 显著 提高 了 服务 查找 与 蔡 换 效率 。 


025 


02 
时 015 
0.05 
0 


[ cc 文献 [6] ETE 文献 [30] 


图 7 


第 39 卷 第 9 期 


5 比 平均 降低 了 9.496, 进一步 印证 了 文本 方法 引入 服务 


不 同 服务 蔡 换 方法 在 数据 集 1 中 服务 替换 耗 时 


Fig.7  Time-consuming for different service substitution 


methods in dataset 1 


04 
时 
203 
间 
02 
0 


SM_CC 文献 [6] ET I 文献 [30] 


图 8 ARUBA EROR AR 2 中 服务 替换 耗 时 


Fig.8 Time-consuming for different service substitution 


methods in dataset 2 
43 替换 的 合理 性 


在 保证 服务 在 功能 层 盏 


能够 满足 失效 服务 的 前 提 下 ， 文 


中 的 算法 综合 了 服务 质量 和 流程 协同 效应 等 两 
现 率 的 概念 ， 
务 与 失效 服务 所 处 的 业务 流程 上 下 文中 的 服务 


荐 最 优 蔡 换 服务 。 本 文 提 出 服务 


价 蔡 换 服务 的 合理 性 。 
服务 的 
二 者 在 所 有 两 次 中 出 现 次 数 之 比 。 令 


以 通过 公式 ServiceCo Occu(si 
(OccuNum(si)* OccuNum(s;)). T4 & fe 


共 现 率 之 和 。 假 设 失效 服务 se 所 处 
合 为 S， 蔡 换 服 务 为 st， 则 st E se 的 


MU 


1 因素 推 


利用 推荐 服 


P 个 流程 
人 OccuNum(si) 表 示 si 在 
所 有 服务 组 合流 程 中 出 现 的 次 数 ， 则 服务 si sj 
$j)= OccuNum(sinsj)/ 
服务 与 失效 服务 的 流程 
共 现 率 定 义 为 替换 服务 与 失效 服务 所 在 流程 


5 现 概率 来 评 


出 现 的 次 数 与 


服务 流程 


HAH 


E 共 现 率 可 


他 服务 


的 业务 流程 中 的 服务 集 


Proc SerCo (st, se)= ServiceCo Occu(S-se, st). 


9 和 图 10 分 别 展示 了 在 数据 集 1 和 数据 集 2 中 ， 不 


同 替换 算法 折 


EB xg XU 


E 荐 服务 与 失效 服务 的 服务 流程 共 现 率 。 从 图 中 


数据 可 以 看 出 ， 在 两 个 数据 集中 ， 本 文 方法 所 
务 的 流程 共 现 率 均 高 于 其 他 方法 , 从 数值 上 高 出 大 约 2-6 倍 ， 
从 而 验证 了 本 文 方法 将 服务 协作 相似 度 加 入 到 月 


中 ， 提 高 了 服务 替换 的 合理 | 


0.035 


"n 
o 


0.0311 


00282 
0025 —- : 
i 0.02 
0015 | 
ri 
001 E w 
0005 H- - 
0 


SM. CC 文献 [6] REN 


E 荐 的 替换 服 


图 9 数据 集 1 中 各 方法 的 流程 现 率 


Fig.9 Process co-occurrence rates for different methods in dataset 1 


0025 -66229 
0.0198 
0.02 
0015 


m 
0 i 0. E 0 E 
0 


率 001 
0.005 
SM CC 文献 [6] dee Di 


图 10 — E 


务 蔡 换 过 程 


kt 现 率 对 比 


Fig. 10 Process co-occurrence rates for different methods in dataset 2 


录用 定 入 田 雨晴 ， 等 : 
5 Wis 


为 了 提高 服务 蔡 换 的 效率 和 合理 性 ， 本 文 提 出 一 种 服务 
复 模 式 下 融合 流程 协作 相似 度 的 服务 替换 方法 。 通 过 引入 服 
务 秘 ,缩减 了 服务 查找 空间 ， 提 高 了 服务 蔡 换 时 的 服务 发 现 
效率 。 将 服务 之 间 的 流程 协作 关系 进行 建 模 和 度量 ， 并 与 服 
务 质量 一 起 引入 到 替换 服务 的 择优 推荐 中 ， 提 高 了 服务 替换 
的 合理 性 。 实 验 结果 验证 了 本 文 方法 有 效 提 高 了 服务 替换 的 
效率 和 合理 性 。 
在 未 来 工作 中 ， 将 研究 聚 类 粒度 大 小 对 服务 蔡 换 效率 的 
影响 ， 并 改进 服务 协同 效应 的 建 模 和 度量 方法 以 进一步 提升 
替换 的 效率 与 合理 性 
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